Mitosis nuclei count is one of the important indicators for the pathological diagnosis of breast cancer. The manual annotation needs experienced pathologists, which is very time-consuming and inefficient. With the development of deep learning methods, some models with good performance have emerged, but the generalization ability should be further strengthened. In this paper, we propose a two-stage mitosis segmentation and classification method, named SCMitosis. Firstly, the segmentation performance with a high recall rate is achieved by the proposed depthwise separable convolution residual block and channel-spatial attention gate. Then, a classification network is cascaded to further improve the detection performance of mitosis nuclei. The proposed model is verified on the ICPR 2012 dataset, and the highest F-score value of 0.8687 is obtained compared with the current state-of-the-art algorithms. In addition, the model also achieves good performance on GZMH dataset, which is prepared by our group and will be firstly released with the publication of this paper. The code will be available at: https://github.com/antifen/mitosis-nuclei-segmentation.
translated by 谷歌翻译
Monocular 3D human pose estimation is quite challenging due to the inherent ambiguity and occlusion, which often lead to high uncertainty and indeterminacy. On the other hand, diffusion models have recently emerged as an effective tool for generating high-quality images from noise. Inspired by their capability, we explore a novel pose estimation framework (DiffPose) that formulates 3D pose estimation as a reverse diffusion process. We incorporate novel designs into our DiffPose that facilitate the diffusion process for 3D pose estimation: a pose-specific initialization of pose uncertainty distributions, a Gaussian Mixture Model-based forward diffusion process, and a context-conditioned reverse diffusion process. Our proposed DiffPose significantly outperforms existing methods on the widely used pose estimation benchmarks Human3.6M and MPI-INF-3DHP.
translated by 谷歌翻译
现有的广告点击率(CTR)预测模型主要取决于行为ID功能,这些功能是根据历史用户AD交互所学习的。然而,依赖历史用户行为的行为ID功能是不可行的,可以在没有以前与用户互动的情况下描述新广告。为了克服对新广告建模的行为ID特征的局限性,我们利用广告中的视觉内容来提高CTR预测模型的性能。具体来说,我们根据其视觉内容将每个广告映射到一组视觉ID中。这些视觉ID进一步用于生成可视觉嵌入,以增强CTR预测模型。我们将视觉ID的学习分为有监督的量化问题。由于缺乏广告中商业图像的类标签,因此我们利用图像文本描述作为监督,以优化图像提取器以生成有效的视觉ID。同时,由于硬量化是不可差异的,因此我们软化量化操作以使其支持端到端网络培训。将每个图像映射到视觉ID之后,我们根据过去积累的历史用户AD交互学习每个视觉ID的嵌入。由于视觉ID嵌入仅取决于视觉内容,因此它概括为新广告。同时,嵌入视觉ID补充了AD行为ID嵌入。因此,它可以大大提高CTR预测模型的性能,以前依赖于积累了丰富用户行为的新广告和广告的行为ID功能。将视觉ID嵌入在BAIDU在线广告的CTR预测模型中后,AD的平均CTR提高了1.46%,总费用增加了1.10%。
translated by 谷歌翻译
在许多现实世界中的机器学习应用中,亚种群的转移存在着极大地存在,指的是包含相同亚种群组的培训和测试分布,但在亚种群频率中有所不同。重要性重新加权是通过对训练数据集中每个样本施加恒定或自适应抽样权重来处理亚种群转移问题的正常方法。但是,最近的一些研究已经认识到,这些方法中的大多数无法改善性能,而不是经验风险最小化,尤其是当应用于过度参数化的神经网络时。在这项工作中,我们提出了一个简单而实用的框架,称为“不确定性感知混合”(UMIX),以根据样品不确定性重新加权“混合”样品来减轻过度参数化模型中的过度拟合问题。基于训练 - 注射器的不确定性估计为每个样品的拟议UMIX配备,以灵活地表征亚群分布。我们还提供有见地的理论分析,以验证UMIX是否在先前的工作中实现了更好的概括界限。此外,我们在广泛的任务上进行了广泛的经验研究,以验证我们方法的有效性,既有定性和定量。
translated by 谷歌翻译
在阻碍强化学习(RL)到现实世界中的问题的原因之一,两个因素至关重要:与培训相比,数据有限和测试环境的不匹配。在本文中,我们试图通过分配强大的离线RL的问题同时解决这些问题。特别是,我们学习了一个从源环境中获得的历史数据,并优化了RL代理,并在扰动的环境中表现良好。此外,我们考虑将算法应用于大规模问题的线性函数近似。我们证明我们的算法可以实现$ O(1/\ sqrt {k})$的次级临时性,具体取决于线性函数尺寸$ d $,这似乎是在此设置中使用样品复杂性保证的第一个结果。进行了不同的实验以证明我们的理论发现,显示了我们算法与非持bust算法的优越性。
translated by 谷歌翻译
随着LIDAR传感器在自动驾驶中的流行率,3D对象跟踪受到了越来越多的关注。在点云序列中,3D对象跟踪旨在预测给定对象模板中连续帧中对象的位置和方向。在变压器成功的驱动下,我们提出了点跟踪变压器(PTTR),它有效地预测了高质量的3D跟踪,借助变压器操作,以粗到1的方式导致。 PTTR由三个新型设计组成。 1)我们设计的关系意识采样代替随机抽样,以在亚采样过程中保留与给定模板相关的点。 2)我们提出了一个点关系变压器,以进行有效的特征聚合和模板和搜索区域之间的特征匹配。 3)基于粗糙跟踪结果,我们采用了一个新颖的预测改进模块,通过局部特征池获得最终的完善预测。此外,以捕获对象运动的鸟眼视图(BEV)的有利特性(BEV)的良好属性,我们进一步设计了一个名为PTTR ++的更高级的框架,该框架既包含了点的视图和BEV表示)产生高质量跟踪结果的影响。 PTTR ++实质上提高了PTTR顶部的跟踪性能,并具有低计算开销。多个数据集的广泛实验表明,我们提出的方法达到了卓越的3D跟踪准确性和效率。
translated by 谷歌翻译
使用点云的3D对象检测由于其在自动驾驶和机器人技术中的广泛应用而引起了越来越多的关注。但是,大多数现有的研究都集中在单点云框架上,而无需利用点云序列中的时间信息。在本文中,我们设计了Transpillars,这是一种基于变压器的新型特征聚合技术,可利用连续点云框架的时间特征用于多帧3D对象检测。从两个角度来看,转子汇总的时空点云特征。首先,它直接从多帧特征映射而不是汇总实例功能融合体素级特征,以保存实例详细信息,并使用上下文信息,这些信息对于准确的对象本地化至关重要。其次,它引入了分层的粗到精细策略,以逐步融合多尺度功能,以有效捕获移动对象的运动并指导精美特征的聚合。此外,引入了一系列可变形变压器,以提高跨帧功能匹配的有效性。广泛的实验表明,与现有的多帧检测方法相比,我们提议的转质质量可以达到最先进的性能。代码将发布。
translated by 谷歌翻译
本文报告了Chalearn的Autodl挑战系列的结果和后攻击分析,这有助于对自动学习(DL)进行分类,以便在各种环境中引入的深度学习(DL),但缺乏公平的比较。格式化所有输入数据模型(时间序列,图像,视频,文本,表格)作为张量,所有任务都是多标签分类问题。代码提交已在隐藏的任务上执行,具有限制时间和计算资源,推动快速获取结果的解决方案。在此设置中,DL方法占主导地位,但流行的神经结构搜索(NAS)是不切实际的。解决方案依赖于微调预培训的网络,架构匹配数据模块。挑战后测试没有透露超出强加时间限制的改进。虽然没有组件尤其原始或新颖,但是一个高级模块化组织出现了“Meta-Learner”,“数据摄入”,“模型选择器”,“模型/学习者”和“评估员”。这种模块化使得消融研究,揭示了(离坡)元学习,合奏和高效数据管理的重要性。异构模块组合的实验进一步证实了获胜解决方案的(本地)最优性。我们的挑战队遗产包括一个持久的基准(http://utodl.chalearn.org),获胜者的开放源代码,以及免费的“autodl自助服务”。
translated by 谷歌翻译
深度神经网络在解决各种现实世界任务中具有广泛的应用,并在计算机视觉,图像分类和自然语言处理等域中实现了令人满意的结果。同时,神经网络的安全性和稳健性成为必要的,因为不同的研究表明了神经网络的脆弱方面。在点的情况下,在自然语言处理任务中,神经网络可以由秘密修改的文本欺骗,这与原始文本具有高相似性。根据以前的研究,大多数研究都集中在图像领域;与图像逆势攻击不同,文本以离散序列表示,传统的图像攻击方法不适用于NLP字段。在本文中,我们提出了一个单词级NLP情绪分类器攻击模型,包括一种基于自我关注机制的词选择方法和用于Word替换的贪婪搜索算法。我们通过在IMDB数据集中攻击GRU和1D-CNN受害者模型进行攻击模型进行实验。实验结果表明,我们的模型达到了更高的攻击成功率,并且比以前的方法更有效,因为由于有效的单词选择算法,并且最小化了单词替代数。此外,我们的模型可转换,可用于具有多种修改的图像域。
translated by 谷歌翻译
未经监督的域名自适应人员重新识别(Reid)已被广泛调查以减轻域间隙的不利影响。这些作品假设目标域数据可以一次访问。然而,对于真实世界的流数据,这会阻碍及时适应改变数据统计数据以及对增加样本的充分利用。在本文中,为了解决更实际的情况,我们提出了一项新任务,终身无监督域自适应(Luda)人Reid。这是具有挑战性的,因为它要求模型不断适应目标环境的未标记数据,同时减轻灾难性的遗忘,为这么细粒度的检索任务。我们为这项任务设计了一个有效的计划,被称为Cluda-Reid,在那里反忘记与适应协调。具体地,提出了基于元的协调数据重放策略来重播旧数据并以协调的优化方向更新网络,以便适应和记忆。此外,我们提出了符合基于检索的任务的目标的旧知识蒸馏/继承的关系一致性学习。我们设置了两个评估设置来模拟实际应用方案。广泛的实验展示了我们Cluda-Reid与具有动态目标流的静止目标流和场景的方案的有效性。
translated by 谷歌翻译